home *** CD-ROM | disk | FTP | other *** search
/ Libris Britannia 4 / science library(b).zip / science library(b) / MATHEMAT / STATISTI / 2845.ZIP / TS_PD.DOC < prev    next >
Text File  |  1991-08-22  |  49KB  |  1,107 lines

  1.  
  2.  
  3.           TURBOSTATS Survey Analysis System
  4.           =================================
  5.  
  6.  
  7.           M. C. Hart
  8.           698 Uppingham Road
  9.           Thurnby
  10.           Leicestershire
  11.           LE7 9RN
  12.  
  13.  
  14.           Contents :
  15.           ========
  16.  
  17.           General Introduction                         ...  Page   1
  18.  
  19.           How does TURBOSTATS work ?                   ...  Page   2
  20.  
  21.           Brief description of the TURBOSTATS modules  ...  Page   4
  22.  
  23.           Running TURBOSTATS                           ...  Page   6
  24.  
  25.           Description of the individual TURBOSTATS
  26.           modules :
  27.  
  28.              TS-FREQ1                                  ...  Page   7
  29.  
  30.              TS-CROSS                                  ...  Page   9
  31.  
  32.              TS-STATS                                  ...  Page  13
  33.  
  34.              TS-ENTRY                                  ...  Page  17
  35.  
  36.              TS-CASES                                  ...  Page  17
  37.  
  38.           TURBOSTATS utilities
  39.  
  40.              SD (Sorted Directory)                     ...  Page  18
  41.  
  42.              SNAPSHOT                                  ...  Page  18
  43.  
  44.              Interfacing with Graphics                 ...  Page  18
  45.  
  46.           TURBOSTATS capacities                        ...  Page  19
  47.  
  48.           DO's and DON'Ts !                            ...  Page  20
  49.  
  50.  
  51.           Version  2.01
  52.           Issued : October, 1989  
  53.           Public domain version : September, 1991
  54.  
  55.  
  56.                                   Page   1
  57.  
  58.           GENERAL INTRODUCTION
  59.           ====================
  60.  
  61.           TURBOSTATS is the name given to a suite of programs designed
  62.           to work with each other in the analysis of survey data. Each
  63.           program  may be run as a 'stand-alone' program or as part of
  64.           an integrated system.   The  TURBOSTATS  system  is  closely
  65.           modelled  upon  the SPSS (Statistical Package for the Social
  66.           Sciences) statistical package and is designed to give output
  67.           similar to  that  offered  by  the  SPSS  'Frequencies'  and
  68.           'Crosstabulations' commands.
  69.  
  70.           The  analysis  of  survey  material  tends  to fall into the
  71.           following categories :
  72.  
  73.                  (i) the counts and percentages  of  the  various
  74.                      values  taken  by  a  single variable ( e.g.
  75.                      those replying 'Yes, 'No' or 'Do  not  Know'
  76.                      in response  to  a  survey  question).  From
  77.                      this we can form a FREQUENCY DISTRIBUTION.
  78.  
  79.                 (ii) the  formation of tables typically involving
  80.                      two   variables   known  as  CONTINGENCY  or
  81.                      CROSS-TABULATION tables.   For  example,  we
  82.                      could   have   table  with  a  variable  SEX
  83.                      subdivided into 'Male and  'Female'  on  one
  84.                      axis  whilst  the  other  axis  might  be  a
  85.                      variable INCOME subdivided into  'High'  and
  86.                      'Low'.  The  CONTINGENCY TABLE would display
  87.                      the numbers of cases that fall into each  of
  88.                      the  resulting  'cells' as well as computing
  89.                      other relevant statistics.
  90.  
  91.                (iii) hypothesis tests designed to measure whether
  92.                      the mean of one variable or sub-group in the
  93.                      data  differs  significantly  from  that  of
  94.                      another  variable or sub- group in the data.
  95.                      Another form  of hypothesis test might be to
  96.                      discover  whether,  in  a contingency table,
  97.                      the type of newspaper read differs  by  sex,
  98.                      for example.
  99.  
  100.  
  101.  
  102.                                   Page  2
  103.  
  104.           HOW DOES TURBOSTATS WORK ?
  105.           ========================
  106.  
  107.           In order to function, the  TURBOSTATS  modules  require  two
  108.           files of data :
  109.  
  110.            (i) a data file consisting of numbers, separated  from
  111.                each  other by spaces, commas or semi-colons. Such
  112.                a file is often known as a  CSV  (Comma  Separated
  113.                Value) file e.g.
  114.                                   1,2,3
  115.                                   1,4,5
  116.                                   2,6,2
  117.                                   ..
  118.                                   etc.
  119.  
  120.           (ii) a  labels  file  which  will  supply names for the
  121.                individual variables ( e.g. SEX,PAPER) and  labels
  122.                for the individual values that each variable might
  123.                take.  For example SEX would typically have labels
  124.                of 'Male' and 'Female'  whilst  PAPER  might  have
  125.                'Quality', 'Tabloid','Sunday' etc.
  126.  
  127.           These  files  can  be  created  in several ways.  For fairly
  128.           small surveys ( e.g. 100 cases or less) you  could  use  the
  129.           TS-ENTRY  module. For larger surveys, it might be more cost-
  130.           effective in terms of time to input data using dBASE III and
  131.           to create data files with the dBASE III command :
  132.             COPY TO filename.ext DELIMITED
  133.  
  134.           It is also possible to create the data and labels  files  by
  135.           using  your  favourite  word-processor or text-editor ( e.g.
  136.           WordStar in non-document mode) In  the  latter  case,though,
  137.           you  would  not  have  the  benefit of any error-checking or
  138.           correction facilities. A labels file  might  look  like  the
  139.           following :
  140.  
  141.                   "SEX","Sex of Individual"
  142.                   "SEX","Male"
  143.                   "SEX","Female"
  144.                   "CLASS","Social Class"
  145.                   "CLASS","Professional"
  146.                   "CLASS","Intermediate"
  147.                   "CLASS","Skilled Manual"
  148.                   "CLASS","Semi-skilled Manual"
  149.                   "CLASS","Unskilled Manual"
  150.                   "CLASS","Pensioners"
  151.                   "CLASS","Not classified"
  152.                   "PAPER","Newspaper read"
  153.                   "PAPER","None"
  154.                   "PAPER","Quality"
  155.                   "PAPER","Middle-brow"
  156.                   "PAPER","Tabloid"
  157.                    ..
  158.                    etc.
  159.  
  160.  
  161.                                   Page  3
  162.  
  163.           The  TURBOSTATS  system  will assume that the first variable
  164.           name encountered in a labels file will relate to  the  first
  165.           column  of data found in a data file.  Similarly, the second
  166.           variable found will relate to the second column of data  and
  167.           so  on.   Care  should  be taken to ensure that the variable
  168.           names match up  with  the  various  columns  of  numbers  as
  169.           TURBOSTATS  has  no way of 'knowing', other than by position
  170.           in a list, which variable name matches up with which  column
  171.           of data.
  172.  
  173.           The  labels  work in a similar fashion.  Once the TURBOSTATS
  174.           system has identified the 'starting  point'  in  the  labels
  175.           file, then it is assumed that:
  176.  
  177.             - the  first entry will be a label which expands upon
  178.               the  name  of  the  variable  (known  as a VARIABLE
  179.               LABEL) For example, the variable name FINCOME might
  180.               be a variable which you  might  wish  to  label  as
  181.               'Fathers income'.
  182.  
  183.             - each subsequent label relates to the various values
  184.               taken  by the variable and consequently is known as
  185.               a VALUE LABEL.  The labels should cover  the  range
  186.               from  the  minimum  to  the  maximum values of that
  187.               variable likely to be encountered in the data set.
  188.  
  189.           In  this respect, TURBOSTATS does not differ materially from
  190.           the SPSS philosophy. Care should be exercised to ensure that
  191.           variable names match up with the appropriate columns.
  192.  
  193.  
  194.           Missing Values
  195.           ~~~~~~~~~~~~~~
  196.           A problem with all survey material is what to do with  those
  197.           cases  where, for a variety of reasons, the question has not
  198.           been  completed.   For  example,  a  question  on  'Father's
  199.           Income' cannot be answered if the respondents father is dead
  200.           or  if  the  income  is  unknown.  In such cases, the survey
  201.           analyst assigns a 'MISSING VALUE' number to such cases  e.g.
  202.           the  number  0,9  or -1 as long as it is integer (i.e. whole
  203.           number) In  subsequent  analyses,  TURBOSTATS  will  request
  204.           MISSING  VALUE  code  numbers  and use these to exclude data
  205.           from further analysis   (although  typically  reporting  the
  206.           number of cases that fall into the MISSING VALUES category).
  207.  
  208.  
  209.  
  210.                                   Page  4
  211.  
  212.           BRIEF DESCRIPTION OF THE TURBOSTATS MODULES
  213.           ===========================================
  214.  
  215.           The TURBOSTATS  system  provides  three  modules  which  are
  216.           designed  to  analyse survey data (TS-FREQ1,TS-CROSS and TS-
  217.           STATS) and a further two to aid the  entry  and  editing  of
  218.           data  files (TS-ENTRY,TS-CASES).  In addition, utilities are
  219.           provided to provide sorted directories and to capture screen
  220.           outputs  into  files  for  subsequent processing in reports.
  221.           Provision is also made for  the  access  of  your  favourite
  222.           spreadsheet  package  if  you wish to process your data in a
  223.           graphical form.
  224.  
  225.           Each of these will now be described briefly :
  226.  
  227.           TS-FREQ1  provides  for  the  frequency distribution of
  228.                     the values in a single variable  measured  at
  229.                     the  nominal  level.  This is the module best
  230.                     used to analyse the patterns of response to a
  231.                     single  question.   The  output  consists  of
  232.                     counts,  percentages  and a simple bar-chart.
  233.                     It is also possible to save results in a file
  234.                     should you wish to import these later into  a
  235.                     graphics package for further analysis.
  236.  
  237.           TS-CROSS  provides   for   contingency  tables  of  two
  238.                     variables measured at the nominal level. This
  239.                     is  the  module  best  used  to  examine  the
  240.                     operation  of  two  variables together ( e.g.
  241.                     sex  and   newspaper   readership)   At   its
  242.                     simplest, TS-CROSS provides simple counts for
  243.                     the  number of cases that will fall into each
  244.                     'cell' but it can  also  generate the  column
  245.                     percentages,     row    percentages,    total
  246.                     percentages, expected values  and  chi-square
  247.                     values for each cell in the table.
  248.  
  249.           TS-STATS  is  the module which can provide for the more
  250.                     specialised statistical information  required
  251.                     on  either  of  one or two variables.  If two
  252.                     variables  are  specified  then  a  range  of
  253.                     bi-variate  statistics  are  also  calculated
  254.                     including the  correlation  coefficient,  the
  255.                     regression  equation and the 't-test' for the
  256.                     differences in means. It is also possible  to
  257.                     use  this  module  to  perform 't-tests' i.e.
  258.                     tests   of   statistical   significance    on
  259.                     sub-groupings within a variable upon request.
  260.                     For example, it would be possible to discover
  261.                     whether  the  mean income for 'Females' might
  262.                     differ from the mean income for 'Males' in  a
  263.                     data  set.   It  is  also possible to display
  264.                     histograms of variables and a scatterplot  of
  265.                     the joint distribution of two variables.
  266.  
  267.  
  268.  
  269.                                   Page  5
  270.  
  271.           TS-ENTRY  is the module that  is  used  to  create  the
  272.                     files for :
  273.  
  274.                        (i) variable and label names
  275.                       (ii) the input of (numerical) data.
  276.  
  277.                     A  labels  file  needs to be created first in
  278.                     order  that the  variable  names  can  supply
  279.                     prompts  for  the  various  values before the
  280.                     input of numerical data.
  281.  
  282.                     To  simplify  the  operation of TS-ENTRY, the
  283.                     module is not designed  to  alter  or  modify
  284.                     existing  label  files.  If the modifications
  285.                     are minor, this is best achieved  using  your
  286.                     usual  word-processor/text  editor  -  in the
  287.                     event of major modifications,  you  would  be
  288.                     well  advised  to  create  a brand-new labels
  289.                     file in any case.
  290.  
  291.           TS-CASES  is a module which creates sub-files  of  your
  292.                     data   for   more   detailed  analysis.   For
  293.                     example, you could create a  file  containing
  294.                     only  'Males'  so  that  you can then examine
  295.                     relationships further within  the  data  that
  296.                     relate only to 'Males'
  297.  
  298.           A utility is provided that enables  you  to  view  a  sorted
  299.           directory,  operated  from  the  principal  menu, should you
  300.           forget a filename.  This utility also  gives  you  the  file
  301.           size  and an  indication  of the space  free upon your disk.
  302.  
  303.           Provision is also made for you to load  the  spreadsheet  of
  304.           your  choice  (e.g. the LOTUS 1-2-3 clone ASEASYAS) in order
  305.           to  access  the  advanced  graphics  capacities  of  such  a
  306.           package.
  307.  
  308.  
  309.  
  310.                                   Page  6
  311.  
  312.  
  313.           RUNNING TURBOSTATS
  314.           ==================
  315.  
  316.  
  317.             To run the TURBOSTATS system is really quite simple.
  318.  
  319.  
  320.            (1) If  you  are  installing  the system for the first
  321.                time on a hard disk, then copy all of the files on
  322.                the disk over to a subdirectory  of  your  choice.
  323.                Then run the TS-INSTL program.
  324.  
  325.  
  326.            (2) If  you  are  running  the  program from either  a
  327.                floppy or a hard disk, then you may run the  whole
  328.                integrated system with the command
  329.  
  330.                       TS   [Dr A:]    (where Dr A: represents the
  331.                                        drive upon which you would
  332.                                        like   the    'screensnap'
  333.                                        files to be stored)
  334.  
  335.                or you may run any of the programs by name directly
  336.  
  337.                   i.e.   TS-MENU        (Menu and loader program)
  338.                          TS-FREQ1       (Frequencies)
  339.                          TS-CROSS       (Cross-Tabulations)
  340.                          TS-STATS       (Statistics of one or two
  341.                                          variables)
  342.  
  343.                          TS-ENTRY       (Label and data entry)
  344.                          TS-CASES       (Creates sub-files of data)
  345.  
  346.  
  347.            (3) If you run the integrated system TS then  a  batch
  348.                file  is loaded which will make the screen capture
  349.                program (SNAP.EXE) memory resident and remind  you
  350.                how  it  is  to  be activated.  Make a note of the
  351.                command  that is necessary to 'snap'  your  screen
  352.                pictures : i.e. PRTSC
  353.  
  354.                Subsequently,  when  the  program  terminates, the
  355.                batch    file    will    run    another    program
  356.                (DEVELOP.EXE) which  will  'develop'  your  screen
  357.                snaps into files named SNAPSHOT.01..SNAPSHOT.30.
  358.  
  359.  
  360.                Make sure that you have sufficient space  on  disk
  361.                to  hold your snapshots : each will take a maximum
  362.                of 2000 bytes.  If you  have  'old'  snapshots  on
  363.                disk  (  i.e.  SNAPSHOT.01  ..   SNAPSHOT.30) then
  364.                rename these to another name (e.g.  OLDSNAP.01  ..
  365.                OLDSNAP.30)  before  you  start  a  new session as
  366.                otherwise the SNAP.EXE program will overwrite  the
  367.                old 'SNAPSHOTS' found on your disk.
  368.  
  369.  
  370.                                   Page  7
  371.  
  372.           DESCRIPTION OF THE INDIVIDUAL TURBOSTATS MODULES
  373.           ================================================
  374.  
  375.           TS-FREQ1
  376.           ========
  377.  
  378.           Sample input screens :
  379.           ~~~~~~~~~~~~~~~~~~~~
  380.  
  381.           TS-FREQ1               TURBOSTATS             (c) M.C. Hart  [1989]
  382.           ~~~~~~~~               ~~~~~~~~~~             ~~~~~~~~~~~~~~~~~~~~~
  383.  
  384.           Performs frequency counts,barcharts of raw (nominal) data..
  385.  
  386.  
  387.           Name of raw data file  ? mysurvey.txt
  388.  
  389.  
  390.           Name of labels file    ? labels.txt
  391.           -------------------------------------------------------------------
  392.           TS-FREQ1               TURBOSTATS             File: MYSURVEY.TXT
  393.           ~~~~~~~~               ~~~~~~~~~~
  394.  
  395.           Performs frequency counts,barcharts of raw (nominal) data..
  396.  
  397.  
  398.           Variable List - [Y]es or [N]o .. [X] to exit
  399.  
  400.           ID              SEX             CLASS           PAPER
  401.  
  402.           Variable ? sex
  403.  
  404.           Missing Values should be integers in the range -32768..32767
  405.           e.g. [0]  [9]  [-1]   [ 0 by default ]
  406.  
  407.           Missing Values  9
  408.  
  409.           -------------------------------------------------------------------
  410.           Sample output screen :
  411.           ~~~~~~~~~~~~~~~~~~~~
  412.  
  413.           SEX  Sex of Individual                          File: MYSURVEY.TXT
  414.  
  415.                                                            Valid        Cum
  416.           Value Label   Value    Frequency    Percent     Percent     Percent
  417.  
  418.           Male            1        136         50.4         51.5        51.5
  419.           Female          2        128         47.4         48.5       100.0
  420.                           9          6          2.2       MISSING
  421.                                 -------       -------     -------
  422.                        TOTAL       270        100.0        100.0
  423.  
  424.                 Male  ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀   136
  425.               Female  ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀   128
  426.  
  427.           Valid Cases    264    Missing Cases     6
  428.  
  429.  
  430.                                   Page  8
  431.  
  432.           The  important  point  to remember about TS-FREQ1 is that is
  433.           designed to deal only with categorical (nominal) data.  This
  434.           is  data in which numbers 'stand for' categories in the data
  435.           rather than being regarded as entities in their  own  right.
  436.           We  would  not  wish  to perform statistical operations upon
  437.           such numbers for they are essentially  'labels'  or  'flags'
  438.           that  indicate  different  categories  of the variable under
  439.           consideration.  If, in a random survey, we named a  variable
  440.           SEX  and  coded  'Female' as 1 and 'Male' as 2 then we could
  441.           count up the numbers of '1s' (i.e. Females) and  '2s'  (i.e.
  442.           Males)  and also perform such calculations as the percentage
  443.           each contributes to the total.  But if we had  50  cases  of
  444.           'Male'  and 50 cases of 'Female', it would not make sense to
  445.           average the numbers ( to produce a mean of 1.5) because  the
  446.           numbers are essentially meaningless.
  447.  
  448.           The  frequencies  values  should be in the range of 1-20 and
  449.           work best if the ranges are 0-8 (with 9 for missing  values)
  450.           or 1-9 ( with 0 used for missing values)
  451.  
  452.           Be  careful  to specify the exact drive and filename of your
  453.           data and label files.  If you  ignore  the  entension,  then
  454.           TURBOSTATS  will assume that you intend a file with the .TXT
  455.           extension and will add this extension automatically to  your
  456.           filename.
  457.  
  458.           A barchart is generated automatically but on the next 'page'
  459.           or 'screen' if space is limited.  Press the ENTER key to get
  460.           the  next  page of output.  This instruction is NOT shown on
  461.           screen in order to keep  the  screen  free  of  instructions
  462.           should you wish to capture output for a subsequent report.
  463.  
  464.           You  also  have  the chance to save your output in an output
  465.           file and should follow the system prompts carefully,  making
  466.           sure that your filename is a legitimate MS-DOS filename i.e.
  467.           1-8 characters with no embedded spaces and with an extension
  468.           e.g. a:myfile.txt
  469.  
  470.  
  471.  
  472.                                   Page  9
  473.  
  474.           TS-CROSS
  475.           ========
  476.  
  477.  
  478.           Sample input screens :
  479.           ~~~~~~~~~~~~~~~~~~~~
  480.  
  481.           TS-CROSS               TURBOSTATS             (c) M.C. Hart  [1989]
  482.           ~~~~~~~~               ~~~~~~~~~~
  483.  
  484.           Constructs contingency tables from raw (nominal) data..
  485.  
  486.  
  487.           Variable List - [Y]es or [N]o .. [X] to exit
  488.  
  489.           ID              SEX             CLASS           PAPER
  490.  
  491.           First variable ? sex
  492.           Second variable ? class
  493.  
  494.           Missing Values should be integers in the range -32768..32767
  495.           e.g. [0]  [9]  [-1]   [ 0 by default ]
  496.  
  497.           Missing Values  9
  498.  
  499.           -------------------------------------------------------------------
  500.  
  501.  
  502.           The data is now entered..
  503.  
  504.           In the contingency table, you have a choice of options
  505.           as well as the cell counts
  506.  
  507.           These are   [1]   Row percentages
  508.                       [2]   Column percentages
  509.                       [3]   Total percentages
  510.                       [4]   Expected values
  511.                       [5]   Chi-square statistic
  512.  
  513.           If you want to choose the option, then give the OPTION number
  514.           when prompted.  Options will be printed in the order you specify..
  515.           Specify 0 if you do NOT want the option ..
  516.  
  517.           First Choice     [Option No]  1
  518.           Second Choice    [Option No]  2
  519.           Third Choice     [Option No]  4
  520.           Fourth Choice    [Option No]  5
  521.           Fifth Choice     [Option No]  0
  522.  
  523.           --------------------------------------------------------------------
  524.  
  525.  
  526.                                   Page 10
  527.  
  528.           TS-CROSS
  529.           ========
  530.  
  531.           Sample output screen :
  532.           ~~~~~~~~~~~~~~~~~~~~
  533.  
  534.  
  535.  
  536.           Crosstabulation of  SEX       Sex of Individual  File: MYSURVEY.TXT
  537.                           By  CLASS     Social Class
  538.  
  539.           CLASS   >│Profes Interm Skille Semi-s Unskil Pensio Not cl│ ROW
  540.                    │sional ediate d Manu killed led Ma ners   assifi│TOTAL
  541.           SEX      │    1      2      3      4      5      6      7 │
  542.                    │──────┼──────┼──────┼──────┼──────┼──────┼──────┼
  543.              Male 1│   24 │   17 │   15 │   27 │   33 │    4 │   26 │  146
  544.            [Row %] │ 16.4 │ 11.6 │ 10.3 │ 18.5 │ 22.6 │  2.7 │ 17.8 │51.4%
  545.            [Col %] │ 57.1 │ 77.3 │ 40.5 │ 50.9 │ 50.0 │ 15.4 │ 68.4 │
  546.            [Exp  ] │ 21.6 │ 11.3 │ 19.0 │ 27.2 │ 33.9 │ 13.4 │ 19.5 │
  547.            [Chis ] │  0.3 │  2.9 │  0.9 │  0.0 │  0.0 │  6.6 │  2.1 │
  548.                    │──────┼──────┼──────┼──────┼──────┼──────┼──────┼
  549.            Female 2│   18 │    5 │   22 │   26 │   33 │   22 │   12 │  138
  550.            [Row %] │ 13.0 │  3.6 │ 15.9 │ 18.8 │ 23.9 │ 15.9 │  8.7 │48.6%
  551.            [Col %] │ 42.9 │ 22.7 │ 59.5 │ 49.1 │ 50.0 │ 84.6 │ 31.6 │
  552.            [Exp  ] │ 20.4 │ 10.7 │ 18.0 │ 25.8 │ 32.1 │ 12.6 │ 18.5 │
  553.            [Chis ] │  0.3 │  3.0 │  0.9 │  0.0 │  0.0 │  6.9 │  2.3 │
  554.                    │──────┼──────┼──────┼──────┼──────┼──────┼──────┼
  555.           TOTAL        42     22     37     53     66     26     38    284
  556.                     14.8%   7.7%  13.0%  18.7%  23.2%   9.2%  13.4% 100.0%
  557.  
  558.           Valid cases =  284   Missing =   16
  559.           Total chi-square     D.F.      Significance     Cells with E.F. < 5
  560.                26.161            6          0.0002         0 of 14  (  0.0% )
  561.  
  562.  
  563.  
  564.                                   Page 11
  565.  
  566.           Contingency  tables  also  require two variables measured at
  567.           the nominal (categorical) level.  The output is designed  so
  568.           that a maximum of NINE columns may be displayed horizontally
  569.           on  the  screen.   If  your  data  contains  more  than nine
  570.           categories, it may be unnecessarily complex in any case  and
  571.           consideration  should  be given to collapsing the categories
  572.           so that there is a maximum of nine.
  573.  
  574.           Several options are given as as  well  as  the  cell  counts
  575.           which are always supplied.  These are :
  576.  
  577.             -  Column %   (Proportion the cell contributes to the
  578.                            column total)
  579.  
  580.             -  Row    %   (Proportion the cell contributes to the
  581.                            row total)
  582.  
  583.             -  Total  %   (Proportion the cell contributes to the
  584.                            overall total)
  585.  
  586.             -  Expected    The value expected in each cell if the
  587.                            proportion  of  the  row  totals   are
  588.                            applied  to the relevant column totals
  589.                            (i.e. there is no relationship between
  590.                            the two variables)
  591.  
  592.             -  Chi-square  A value calculated from the formula :
  593.  
  594.                                (Observed - Expected)²
  595.                                 --------------------
  596.                                      Expected
  597.  
  598.                            which is then totalled  to  produce  a
  599.                            total chi-square ( often designated as
  600.                            X²)  The  'p' value is the probability
  601.                            of chi- square occuring by chance  and
  602.                            will take a value between 0 and 1.  An
  603.                            output  of  p=0.05  means  that  there
  604.                            there is only a 5% chance  (1  in  20)
  605.                            that the association found in the data
  606.                            could  have  occurred by chance alone.
  607.                            The  5%  level  is  the   conventional
  608.                            'significance  level'  used  to test a
  609.                            statistical hypothesis.   A  value  of
  610.                            p=0.0000  means  a probability of 5 in
  611.                            100,000 or less i.e. practically zero.
  612.  
  613.                            Remember  that   a   LOW   'p'   value
  614.                            indicates  that  it is likely that the
  615.                            variables  are  significantly  related
  616.                            and vice versa.
  617.  
  618.  
  619.                                   Page 12
  620.  
  621.  
  622.  
  623.           Special case of a 'single value' column or row
  624.           ----------------------------------------------
  625.  
  626.           Under these circumstances, a normal contingency table is not
  627.           possible.   However,  TS-CROSS  will sense this special case
  628.           and produce a 'GOODNESS OF FIT' test.  For  example,  if  we
  629.           had the following data :
  630.  
  631.                        PAPERS
  632.  
  633.                        Quality       Tabloid        The Rest     TOTAL
  634.  
  635.           SEX=1 (Male)    40             30             30         100
  636.             (Expected)    33.3           33.3           33.3
  637.  
  638.           Notice  that TS-CROSS has taken the 100 cases and calculated
  639.           the expected probabilities by assuming  that  they  will  be
  640.           evenly  distributed  (  i.e.  a third or 33.3% in each cell)
  641.           before calculating the appropriate chi-square.
  642.  
  643.  
  644.  
  645.                                   Page 13
  646.  
  647.           TS-STATS
  648.           ========
  649.  
  650.           Sample output screens :
  651.           ~~~~~~~~~~~~~~~~~~~~~
  652.           File: MYSURVEY.TXT                          SEX            CLASS
  653.  
  654.           Measures of Central Tendency
  655.           ~~~~~~~~~~~~~~~~~~~~~~~~~~~~
  656.           Mean                                       1.478           4.108
  657.           Median                                     1.000           4.000
  658.           Mode                                       1.000           5.000
  659.  
  660.           Measures of Dispersion
  661.           ~~~~~~~~~~~~~~~~~~~~~~
  662.           Minimum                                    1.000           1.000
  663.           Maximum                                    2.000           7.000
  664.           Range                                      1.000           6.000
  665.           First Quartile                             1.000           3.000
  666.           Third Quartile                             2.000           6.000
  667.           Semi-Interquartile Range                   1.000           3.000
  668.           Variance                                   0.250           3.567
  669.           Stan.dev     [pop-n]                       0.500           1.889
  670.           Stan.dev    [sample]                       0.500           1.892
  671.           S.E.Mean                                   0.029           0.112
  672.  
  673.           Measures of Distribution Shape
  674.           ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
  675.           Skewness                                   0.088          -0.183
  676.           Kurtosis                                  -1.999          -0.965
  677.  
  678.           -----------------------------------------------------------------
  679.           File: MYSURVEY.TXT                          SEX            CLASS
  680.  
  681.           Numbers of Cases
  682.           ~~~~~~~~~~~~~~~~
  683.           N                                           293             287
  684.           Missing Values                                7              13
  685.           N (valid pairs)                             284
  686.  
  687.           Summary Statistics
  688.           ~~~~~~~~~~~~~~~~~~
  689.           Σx, Σy                                      433            1179
  690.           Σx²,Σy²                                     713            5867
  691.  
  692.           Σx, Σy  (adjusted : pair-wise deletion)     422            1161
  693.           Σx²,Σy² (adjusted : pair-wise deletion)     698            5759
  694.  
  695.           Σxy                                        1740
  696.  
  697.           Bi-variate Statistics
  698.           ~~~~~~~~~~~~~~~~~~~~~
  699.           Correlation                 r =   0.0554  t =    0.932   p =  0.352
  700.           Regression   y (CLASS     )   =    3.777 +  0.209 * x (SEX        )
  701.  
  702.           T-Test (difference in means) t =  22.785  D.F. =  325.04  p =  0.000
  703.  
  704.  
  705.                                   Page 14
  706.  
  707.           'T'-test : Sample input and output screens:
  708.           ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
  709.  
  710.           Perform a t-test on the variables    [Y]es   [N]o
  711.  
  712.           It is necessary to divide the variable SEX
  713.           into two groups to perform the t-test
  714.  
  715.           Minimum of Group 1   1
  716.           Maximum of Group 1   1
  717.  
  718.           Name you wish to give to Group 1 [8 characters or less]  Males
  719.  
  720.           Minimum of Group 2   2
  721.           Maximum of Group 2   2
  722.  
  723.           Name you wish to give to Group 2 [8 characters or less]  Females
  724.  
  725.           -------------------------------------------------------------------
  726.  
  727.           Twosample test of SEX by CLASS                   File: MYSURVEY.TXT
  728.  
  729.  
  730.           SEX                         N      MEAN     STDEV   SE MEAN
  731.  
  732.           Group 1     Males         153     4.216     2.221     0.180
  733.           Group 2     Females       140     4.264     1.845     0.156
  734.  
  735.  
  736.           T-Test (difference in means)  t =  0.204  D.F. = 288.37  p = 0.8382
  737.  
  738.  
  739.  
  740.                                   Page 15
  741.  
  742.  
  743.           Histogram of CLASS
  744.  
  745.           Minimum of CLASS is    1.0    Histogram minimum ?   1
  746.           Maximum of CLASS is    7.0    Histogram maximum ?   7
  747.  
  748.           No of classes in the histogram [2-20] ?   7
  749.  
  750.  
  751.  
  752.  
  753.           Histogram of CLASS    Social Class              File: MYSURVEY.TXT
  754.  
  755.              CLASSES       COUNT   PERCENT
  756.  
  757.               7.0           38     13.2%   ************
  758.               6.0           29     10.1%   *********
  759.               5.0           66     23.0%   **********************
  760.               4.0           53     18.5%   *****************
  761.               3.0           37     12.9%   ************
  762.               2.0           22      7.7%   *******
  763.               1.0           42     14.6%   **************
  764.                            --------------
  765.              Total         287    100.0%
  766.              Missing Cases  13
  767.  
  768.  
  769.   ----------------------------------------------------------------------------
  770.  
  771.  
  772.        Plot of   CLASS against PAPER        r= 0.0378       File: MYSURVEY.TXT
  773.  
  774.            ┌─────────────────────────────────────────────────────────────────┐
  775.       8.0  │ *        *        *        *        *        *        *         │
  776.            │                                                                 │
  777.            │ *        *        *                 *        *        *         │
  778.            │                                                                 │
  779.            │ *        *                 *        *                 *         │
  780.            │                                                                 │
  781.            │ *        *        *        *        *        *        *         │
  782.            │                                                                 │
  783.      PAPER │ *        *                          *                 *         │
  784.            │                                                                 │
  785.            │ *                 *        *        *        *        *         │
  786.            │                                                                 │
  787.            │                   *        *                 *        *         │
  788.            │                                                                 │
  789.            │                   *        *        *                 *         │
  790.            │                                                                 │
  791.            │ *        *        *        *        *                 *         │
  792.       0.0  │                                                                 │
  793.            └─────────────────────────────────────────────────────────────────┘
  794.                1.0             CLASS    Social Class                     7.0
  795.  
  796.  
  797.  
  798.                                   Page 16
  799.  
  800.  
  801.           TS-STATS will produce the range of  'univariate'  statistics
  802.           on  either  one  or  two  variables.   If  two variables are
  803.           specified, then in addition to  the  univariate  statistics,
  804.           the following bivariate statistics are also produced :
  805.  
  806.             -  correlation  coefficient  (r)  which  measures the
  807.                strength  of  the  relationship  between  the  two
  808.                variables.      The     correlation    coefficient
  809.                (technically known as  Pearson's  r)  may  take  a
  810.                value  that  lies  beween  0  and  1.   Note  that
  811.                correlation cannot be taken to imply causation.  A
  812.                t-test  and  probability   for   the   correlation
  813.                coefficient are also calculated.
  814.  
  815.             -  regression  equation  in  which  the equation of a
  816.                'line of best fit' is calculated for the data. The
  817.                regression equation  allows  one  to  predict  the
  818.                values for the dependent variable ( = y ) if given
  819.                the  value of the independent variable ( = x ) For
  820.                further details  of  correlation  and  regression,
  821.                consult a standard statistical textbook.
  822.  
  823.              - a  t-test  to  test  whether  or  not  there  is a
  824.                statistical difference between the means.
  825.  
  826.           If required, a 't-test' may be performed which allows one to
  827.           take  the  categories  of  one  variable ( e.g. 1='Male' and
  828.           2='Female' in a variable named SEX) and calculate whether or
  829.           not there is a statistical difference between the two groups
  830.           with respect to the other variable chosen.
  831.  
  832.           You will be prompted  for  maximum  and  minimum  values  to
  833.           facilitate  dividing  one  variable into two sub-groups.  If
  834.           you have several categories that are  not  contiguous,  then
  835.           you  will probably have to reorder the data in your original
  836.           data file ( as well  as  amending  the  corresponding  label
  837.           files)
  838.  
  839.           Facilities   are  also  available  to  view  histograms  and
  840.           scatterplots.  In the case of histograms,  the  minimum  and
  841.           maximum  of  each variable will be shown and you are free to
  842.           accept  these  or to substitute others of your own. Then you
  843.           will be  asked  to  suggest  the  number  of  classes  (i.e.
  844.           divisions)  in the data.  You will be well advised to choose
  845.           categories that are consistent with the  data  e.g.  if  the
  846.           minimum  and  maximun are 1 and 7 respectively then choose 7
  847.           classes, rather than 10.
  848.  
  849.           A  simple scatterplot is also available  on  request.   Note
  850.           that  the  correlation coefficient between the two variables
  851.           is  displayed  but  that  TURBOSTATS  does  not  distinguish
  852.           between multiple plots at the same screen location.
  853.  
  854.  
  855.  
  856.                                   Page 17
  857.  
  858.           TS-ENTRY
  859.           ========
  860.  
  861.           This  module  is  used  to  create  variable names, variable
  862.           labels and value labels as well as  entering  the  raw  data
  863.           itself.   These  terms are also used in SPSS but are defined
  864.           and illustrated below :
  865.  
  866.           VARIABLE NAME   A name of 1-8 characters from the set
  867.                           [A..Z,0..9,_,-]
  868.  
  869.           VARIABLE LABELS A brief label   ( up to 25 characters )
  870.                           which   may  be  used  to  amplify  the
  871.                           meaning  of   the   necessarily   brief
  872.                           variable  name  itself.   e.g.   INCOME
  873.                           could have the  label  of  "Anticipated
  874.                           Annual Salary
  875.  
  876.           VALUE LABELS    A brief description of each value  that
  877.                           a   variable   may  take  (  up  to  15
  878.                           characters only) Brief  variable  names
  879.                           may  be  preferable  to  long  variable
  880.                           names as  under  certain  circumstances
  881.                           the  variable  label is truncated (i.e.
  882.                           cut down)  to  some  eight  characters.
  883.                           This   is  most  likely  in  happen  in
  884.                           TS-STATS when there  are  nine  columns
  885.                           horizontally across the screen.
  886.  
  887.           The  operation  of  TS-ENTRY  is  self-explanatory  and  you
  888.           generally  have an opportunity to correct errors in both the
  889.           label entry and the data entry sections.   If  you  wish  to
  890.           amend the label files that you have already created, this is
  891.           best done with your usual word-processor/text editor.
  892.  
  893.  
  894.  
  895.           TS-CASES
  896.           ========
  897.  
  898.           This  module  is  used to create sub-files of data from your
  899.           original data set.  For example, you could choose to have  a
  900.           file  which  contains  only  'Males' or alternatively a file
  901.           which excludes 'Males'.
  902.  
  903.           The module is self-explanatory in operation.  Generally, you
  904.           will wish to 'include' the values of the variable  that  you
  905.           have  chosen  in your new sub-file.  However, it is possible
  906.           that you wish to create a file which  contains  all  of  the
  907.           values  of  the  variable  EXCEPT  the  ones  that  you have
  908.           indicated and in this case you would choose to EXCLUDE those
  909.           values from your new sub-file.
  910.  
  911.           Do  remember  to  choose  a  different  name  for  your  new
  912.           sub-file!
  913.  
  914.  
  915.                                   Page 18
  916.  
  917.  
  918.           TURBOSTATS UTILITIES
  919.           ====================
  920.  
  921.  
  922.  
  923.           SD (Sorted Directory)
  924.           ~~~~~~~~~~~~~~~~~~~~
  925.  
  926.           SD is a simple utility which is available from the principal
  927.           menu and gives a sorted directory.  The size of each file is
  928.           specified  in  bytes  and there is also an indication of the
  929.           amount of free space available on the disk.
  930.  
  931.  
  932.  
  933.           SNAP.EXE Capturing screen output
  934.           ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
  935.  
  936.           An especially written utility  (SNAP.EXE)  is  provided  and
  937.           this  is  made memory-resident to enable 'snaps' to be taken
  938.           of the screen.  To 'snap' a picture then press PRTSC.   (The
  939.           'normal'  function  of this key i.e. to provide screen dumps
  940.           on the printer will be restored  later  by  the  DEVELOP.EXE
  941.           program)  This will record a picture of the screen in memory
  942.           and later the DEVELOP.EXE will 'develop' these pictures into
  943.           files named SNAPSHOT.01..SNAPSHOT.30.  These  files  may  be
  944.           printed  out or read into other documents if it is wished to
  945.           incorporate them into other reports.  You should also ensure
  946.           that you have a disk (usually in Drive A:)  with  sufficient
  947.           space for each screen snap which will take a maximum of 2000
  948.           bytes each.
  949.  
  950.  
  951.           Interfacing  with  Graphics
  952.           ~~~~~~~~~~~~~~~~~~~~~~~~~~~
  953.  
  954.           There are some limited  plotting  capabilities  provided  by
  955.           TURBOSTATS  but  it is possible to complement these with the
  956.           graphics facilities  available  in  public  domain/shareware
  957.           programs  such  as  the  LOTUS  1-2-3  'clone' 'AS-EASY-AS'.
  958.           Provision is made on the main  menu  for  you  to  load  the
  959.           package of your own choice.  The assumption here is that the
  960.           relevant  parts of the package are available on your default
  961.           drive.
  962.  
  963.  
  964.  
  965.                                   Page 19
  966.  
  967.           TURBOSTATS CAPACITIES
  968.           =====================
  969.  
  970.  
  971.  
  972.           Number of cases
  973.           ~~~~~~~~~~~~~~~
  974.  
  975.           TS-FREQ1 and TS-CROSS                    7500 cases
  976.           TS-STATS                                 2000 cases
  977.  
  978.  
  979.  
  980.           Number of variables
  981.           ~~~~~~~~~~~~~~~~~~~
  982.  
  983.           For technical reasons, an input line from your data file may
  984.           only  be  254  characters  in  length.   Remembering  that a
  985.           position is occupied by each delimiter ( e.g. a space  or  a
  986.           comma), then TURBOSTATS can accomodate
  987.  
  988.                127 variables of length  1          (e.g. 1,2,3)
  989.                 84 variables of length  2          (e.g. 10,12,14)
  990.                 62 variables of length  3          (e.g. 123,456,6.7)
  991.  
  992.           If  you  have a large data set, then consider splitting your
  993.           whole project into two or more files, ensuring that in  each
  994.           file  you  keep  together  those  variables that you wish to
  995.           cross-tabulate or correlate.
  996.  
  997.  
  998.           Number of variable/value labels
  999.           ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
  1000.  
  1001.           All modules                              300 lines of text
  1002.  
  1003.           Number of variable/value labels
  1004.             processed by the TS-ENTRY module       200 lines of text
  1005.  
  1006.  
  1007.                                   Page 20
  1008.  
  1009.  
  1010.           DO's and DON'TS !
  1011.           ===============
  1012.  
  1013.           DO :
  1014.           ~~
  1015.            (1) Take great care that your labels file  matches  up
  1016.                EXACTLY  with  your  data  file.   Your  two files
  1017.                should match up as in the example below :
  1018.  
  1019.                "SEX","Sex of Individual" │              1,2,1
  1020.                "SEX","Male"              ├──────────┐   1,1,2
  1021.                "SEX","Female"            │          │   2,3,2
  1022.                "YEAR","Year of Course"      │       │   1,2,1
  1023.                "YEAR", "First Year"         │       └───┘ │ │
  1024.                "YEAR","Second Year"         ├─────────────┘ │
  1025.                "YEAR","Third Year"          │               │
  1026.                "DRIVER","Holds Driving Licence"│            │
  1027.                "DRIVER","Can drive"            ├────────────┘
  1028.                "DRIVER","Cannot drive"         │
  1029.  
  1030.            (2) Ensure that the type of  data  that  you  have  is
  1031.                appropriate  for  the module that you are using to
  1032.                analyse  the  data.  The  following  table  should
  1033.                clarify the position :
  1034.  
  1035.            ┌─────────────────────────────────────────┬───────────────┐
  1036.            │    TYPES  OF  DATA                      │     MODULE    │
  1037.            ├─────────────────────────────────────────┼───────────────┤
  1038.            │   Nominal (Categorical) data :          │               │
  1039.            │   ~~~~~~~~~~~~~~~~~~~~~~~~~~            │               │
  1040.            │   Integers typically in the range 1-9   │   TS-FREQ1    │
  1041.            │   used as answers to questions ..       │   TS-CROSS    │
  1042.            │                                         │   TS-STATS    │
  1043.            ├─────────────────────────────────────────┼───────────────┤
  1044.            │   Interval OR Ratio data                │               │
  1045.            │   ~~~~~~~~~~~~~~~~~~~~~~                │               │
  1046.            │   May be large numbers which may        │   TS-STATS    │
  1047.            │   contain a decimal place. An example   │   only!       │
  1048.            │   would be a figure for a salary (e.g.  │               │
  1049.            │   9500) or a height (5.5 feet)          │               │
  1050.            └─────────────────────────────────────────┴───────────────┘
  1051.  
  1052.               
  1053.  
  1054.                                   Page 21
  1055.  
  1056.  
  1057.            (3) Make  sure   that  your   initial  data file does not
  1058.                contain blank lines at the beginning or at the end of 
  1059.                the file.  Also it is important that the data in each 
  1060.                line should be exactly as shown in (1) above, with no 
  1061.                spaces  between the data items,  with  the data items 
  1062.                separated by a comma(,) and with each line terminated 
  1063.                by a normal carriage return  ( i.e. the CR/LF pair of 
  1064.                bytes )    If the package  'locks up' after reading a 
  1065.                datafile,  then  in all probability the cause will be 
  1066.                found in a datafile which contains some of the errors
  1067.                mentioned above.    Ensure  that the labels file also 
  1068.                contains no blank lines and that the number of  value
  1069.                labels is consistent with the data set. In particular
  1070.                try to ensure a consistent spelling with the variable
  1071.                labels in upper case.
  1072.  
  1073.            (4) Take  care  with  specifying your drive and MS-DOS
  1074.                filenames  which  should  not   contain   embedded
  1075.                blanks or unconventional characters.
  1076.  
  1077.                A typical filename might be : a:myfile.txt
  1078.  
  1079.                Note : no spaces, filename of eight characters or
  1080.                        less, extension specified.
  1081.  
  1082.            (5) Expand  your  knowledge  by  reading   appropriate
  1083.                statistical texts if necessary.
  1084.  
  1085.  
  1086.            (6) USE the CTRL-BREAK keys to abort a module   should  
  1087.                you find that you have made an irrecoverable error 
  1088.                and you wish to return to the principal menu.
  1089.  
  1090.  
  1091.           DO NOT :
  1092.           ~~~~~~
  1093.  
  1094.  
  1095.           (1)  Attempt to write to a disk which is full or write-
  1096.                protected
  1097.  
  1098.           (2)  Use  categories outside the range  1-9  ( or 0-8 )
  1099.                in the modules TS-FREQ1 and TS-CROSS.
  1100.  
  1101.                Collapse your data if necessary so that you do not
  1102.                have more than nine categories in either direction
  1103.                in these two modules.
  1104.  
  1105.  
  1106.  
  1107.